Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/datarascals/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Дата канальи — про «специалистов» в данных / ML / AI | Telegram Webview: datarascals/211 -
Telegram Group & Telegram Channel
В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизация логлосс и максимизация ROCAUC 🤓

Начну издалека и разобью ответ на несколько постов.

Не из вредности, а из-за того что в ROCAUC как правило, не углубляются и оттого возможны оптические иллюзии (назовем пока так) 🌈

Не верите?

Ну вот для разминки 🏋‍♂️ пара задачек от Александра Дьяконова

Раз
Два

И одна прямиком из статьи:

Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?

Короткий ответ — нет

Хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate 🥊) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.

Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)

Конечно, таких фокусов хочется избежать 🧙‍♂️, для этого все же нужно вспомнить про задачу — редко когда нам надо одинаково хорошо уметь ранжировать по всей выборке, чаще именно ранжировать нужно уметь в каком-то регионе (например по FPR), поэтому у ROCAUC множество модификаций — PAUC (Partial AUC), TPAUC, OPAUC, SAUC, gAUC (generalised AUC), GAUC (group AUC), GAUC@k, LAUC@k (limited AUC) и всякие другие.

Здесь снова вспоминается тезис Александра Дьяконова из неопубликованного (а мб он уже опубликовал?) учебника о том что все банки используют GINI (он же ROCAUC) в задаче PD (определения вероятности наступления дефолта), а ROCAUC не то чтобы в этом случае сильно подходит — IMHO, ровно потому что ранжирование интересно уже выше отсечки одобрения кредита (и там калиброванный PD войдет уже в EL).

Но не скорингом единым — PAUC и другие модификации широко используются в рекомендашках и в поиске (да, и в RAG тоже -- на этапе retrieval).

Если хотите с азов 💾, то про сами сами ROC-кривые, их доверительные интервалы, обобщения на мульткласс можно почитать здесь а про связь ROCAUC с вероятностью корректно ранжировать — в журнале по радиологии за 1982 год.

PS: Если с researchgate сложности - маякните единорожкой, выложу pdf’ки в комментариях

PPS: про связь ROCAUC и логлосс уже в следующем посте, пока лишь намекну статьей про DeepFM (таб. 2)

PPPS: уже почти не удивляюсь когда вижу статью с названием Deep ROC analysis <...> в приличном журнале за 2021 год 😱, вот и вы не удивляйтесь этому посту 😆
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/datarascals/211
Create:
Last Update:

В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизация логлосс и максимизация ROCAUC 🤓

Начну издалека и разобью ответ на несколько постов.

Не из вредности, а из-за того что в ROCAUC как правило, не углубляются и оттого возможны оптические иллюзии (назовем пока так) 🌈

Не верите?

Ну вот для разминки 🏋‍♂️ пара задачек от Александра Дьяконова

Раз
Два

И одна прямиком из статьи:

Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?

Короткий ответ — нет

Хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate 🥊) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.

Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)

Конечно, таких фокусов хочется избежать 🧙‍♂️, для этого все же нужно вспомнить про задачу — редко когда нам надо одинаково хорошо уметь ранжировать по всей выборке, чаще именно ранжировать нужно уметь в каком-то регионе (например по FPR), поэтому у ROCAUC множество модификаций — PAUC (Partial AUC), TPAUC, OPAUC, SAUC, gAUC (generalised AUC), GAUC (group AUC), GAUC@k, LAUC@k (limited AUC) и всякие другие.

Здесь снова вспоминается тезис Александра Дьяконова из неопубликованного (а мб он уже опубликовал?) учебника о том что все банки используют GINI (он же ROCAUC) в задаче PD (определения вероятности наступления дефолта), а ROCAUC не то чтобы в этом случае сильно подходит — IMHO, ровно потому что ранжирование интересно уже выше отсечки одобрения кредита (и там калиброванный PD войдет уже в EL).

Но не скорингом единым — PAUC и другие модификации широко используются в рекомендашках и в поиске (да, и в RAG тоже -- на этапе retrieval).

Если хотите с азов 💾, то про сами сами ROC-кривые, их доверительные интервалы, обобщения на мульткласс можно почитать здесь а про связь ROCAUC с вероятностью корректно ранжировать — в журнале по радиологии за 1982 год.

PS: Если с researchgate сложности - маякните единорожкой, выложу pdf’ки в комментариях

PPS: про связь ROCAUC и логлосс уже в следующем посте, пока лишь намекну статьей про DeepFM (таб. 2)

PPPS: уже почти не удивляюсь когда вижу статью с названием Deep ROC analysis <...> в приличном журнале за 2021 год 😱, вот и вы не удивляйтесь этому посту 😆

BY Дата канальи — про «специалистов» в данных / ML / AI




Share with your friend now:
tg-me.com/datarascals/211

View MORE
Open in Telegram


DATARASCALS Telegram Group Telegram | DID YOU KNOW?

Date: |

Traders also expressed uncertainty about the situation with China Evergrande, as the indebted property company has not provided clarification about a key interest payment.In economic news, the Commerce Department reported an unexpected increase in U.S. new home sales in August.Crude oil prices climbed Friday and front-month WTI oil futures contracts saw gains for a fifth straight week amid tighter supplies. West Texas Intermediate Crude oil futures for November rose $0.68 or 0.9 percent at 73.98 a barrel. WTI Crude futures gained 2.8 percent for the week.

Find Channels On Telegram?

Telegram is an aspiring new messaging app that’s taking the world by storm. The app is free, fast, and claims to be one of the safest messengers around. It allows people to connect easily, without any boundaries.You can use channels on Telegram, which are similar to Facebook pages. If you’re wondering how to find channels on Telegram, you’re in the right place. Keep reading and you’ll find out how. Also, you’ll learn more about channels, creating channels yourself, and the difference between private and public Telegram channels.

DATARASCALS Telegram Group from kr


Telegram Дата канальи — про «специалистов» в данных / ML / AI
FROM USA